Como importar dados no RStudio?

Importar dados para R é um passo necessário que, às vezes, pode se tornar demorado. Para facilitar essa tarefa, o RStudio inclui novos recursos para importação de dados como: arquivos csv, xls, xlsx, sav, dta, por, sas e stata.

Os recursos de importação de dados podem ser acessados na aba “Environment” (ambiente), que fica no painel mais à direita da tela; na aba “Tools” (ferramentas) ou na aba “File” (arquivo) do menu, isso depende da sua versão do RStudio. Os importadores são agrupados em 3 categorias: dados delimitados, dados do Excel e dados estatísticos. Para acessar esse recurso, use a opção “Import Dataset” (importar conjunto de dados) na aba “Environment”:

Ou através do menu “Tools” ou “File”, seguido pelo submenu “Import dataset”:

Importando dados de arquivos CSV

O importador CSV fornece suporte para:

Por exemplo, pode-se importar com facilidade um formato csv data.gov, colando esta URL https://data.montgomerycountymd.gov/api/views/6rqk-pdub/rows.csv?accessType=DOWNLOAD e selecionando “import”.

Importando dados de arquivos do Excel

O importador do Excel fornece suporte para:

Por exemplo, pode-se importar com facilidade um arquivo xls do data.gov, colando esta URL http://www.fns.usda.gov/sites/default/files/pd/slsummar.xls e selecionando “import”. Observe que esse arquivo contém tabelas e, portanto, requer que as primeiras linhas sejam removidas.

Podemos limpar isso pulando 6 linhas desse arquivo e desmarcando a caixa de seleção “First row as names”.

O arquivo está com uma aparência melhor, mas algumas colunas estão sendo exibidas como palavras quando elas são claramente dados numéricos. Podemos corrigir isso selecionando “numeric” na lista da coluna (character, double…). Para finalizar, basta clicar em “import” para executar o código em “Code Preview” e importar os dados para o RStudio.

Importando dados de arquivos SPSS, SAS e Stata

O importador SPSS, SAS e Stata fornece suporte para:

Comando read.table()

Se os dados já estão disponíveis em formato eletrônico, isto é, já foram digitados em outro programa, você pode importar os dados para o R sem a necessidade de digitá-los novamente. A forma mais fácil de fazer isto é usar dados em formato texto (arquivo do tipo ASCII). Por exemplo, se seus dados estão disponíveis em uma planilha eletrônica como EXCEL ou similar, voce pode na planilha escolher a opção e gravar os dados em um arquivo em formato texto. No R usa-se scan() mencionada anteriormente, ou então a função mais flexível read.table() para ler os dados de um arquivo texto e armazenar no formato de uma data-frame (O data.frame é talvez o formato de dados mais importante do R. No data.frame cada coluna representa uma variável e cada linha uma observação. Essa é a estrutura ideal para quando você tem muitas variáveis de classes diferentes em um banco de dados).

Como primeiro exemplo, considere importar para o R os dados deste arquivo texto. Clique no link para visualizar o arquivo. Agora copie o arquivo para sua área de trabalho (working directory do R). Para importar este arquivo usamos:

ex01 <- read.table(“gam01.txt”)

ex01

Como segundo exemplo, considere importar para o R os dados deste arquivo texto. Clique no link para visualizar o arquivo. Agora copie o arquivo para sua área de trabalho (working directory do R). Note que este arquivo difere do anterior em um aspecto: os nomes das variáveis estão na primeira linha. Para que o R considere isto corretamente temos que informá-lo disto com o argumento head = TRUE. Portanto para importar este arquivo usamos:

ex02 <- read.table(“exemplo02.txt”, head=TRUE)

ex02

Como terceiro exemplo, considere importar para o R os dados deste arquivo texto. Clique no link para visualizar o arquivo. Agora copie o arquivo para sua área de trabalho (working directory do R). Note que este arquivo difere dos outros em alguns aspectos: além dos nomes das variáveis estarem na primeira linha, os campos agora não são mais separados por tabulação e sim por :. Alm disto os caracteres decimais estão separados por vírgula, sendo que o R usa ponto pois é um programa escrito em língua inglesa. Portanto para importar corretamente este arquivo usamos então os argumentos sep e dec:

ex03 <- read.table(“dadosfic.csv”, head=TRUE, sep=“:”, dec=“,”)

ex03

Para maiores informações consulte a documentação desta função com ?read.table.

Algumas dicas

Em vez de tentar importar arquivos SPSS ou Excel diretamente no R, é recomendável primeiro exportar/salvar os arquivos originais do SPSS ou do Excel como texto “.txt” arquivos - tanto o SPSS quanto o Excel têm opções para fazer isso. Em seguida, depois de exportar os dados para um arquivo .txt, você poderá lê-los no R usando read.table (). Se você tentar exportar um arquivo do Excel para um arquivo de texto, é uma boa ideia limpar o arquivo o máximo possível, por exemplo, excluindo colunas desnecessárias, certificando-se de que todas as colunas numéricas tenham dados numéricos, certificando-se de que os nomes das colunas sejam simples (ou seja, palavras únicas sem espaços ou caracteres especiais). Se houver algo “sujo” no arquivo, R ainda poderá ter problemas para lê-lo, mesmo depois de exportá-lo para um arquivo de texto.

Se você absolutamente precisa ler um arquivo que não seja texto em R, verifique o pacote chamado foreign (install.packages (“foreign”)). Este pacote tem funções para importar arquivos Stata, SAS e SPSS diretamente para o R. Para ler arquivos do Excel, tente o pacote xlsx (install.packages (“xlsx”)). Mas, novamente, é sempre melhor converter esses arquivos em arquivos de texto simples primeiro e depois lê-los em R com read.table().

Referências

Para mais informações, seguem as referências utilizadas para a criação deste arquivo: